Извлечь подмножество пар ключ-значение из объекта словаря Python?

У меня есть большой объект словаря, который имеет несколько пар ключ-значение (около 16), но меня интересуют только 3 из них. Каков наилучший способ (самый короткий / эффективный / самый элегантный) для этого?

Лучшее, что я знаю:

bigdict = {'a':1,'b':2,....,'z':26} 
subdict = {'l':bigdict['l'], 'm':bigdict['m'], 'n':bigdict['n']}

Я уверен, что есть более элегантный способ, чем этот. Идеи?


person Jayesh    schedule 18.03.2011    source источник


Ответы (11)


Вы можете попробовать:

dict((k, bigdict[k]) for k in ('l', 'm', 'n'))

... или в Python 3 версии Python 2.7 или новее (спасибо Фабио Диниз за указание на то, что это работает и в 2.7):

{k: bigdict[k] for k in ('l', 'm', 'n')}

Обновление: как указывает Håvard S, я предполагаю, что вы знаете, что ключи будут в словаре - см. его ответ, если вы не можете сделать это предположение. В качестве альтернативы, как указывает timbo в комментариях, если вы хотите, чтобы ключ, отсутствующий в bigdict, был сопоставлен с None, вы можете делать:

{k: bigdict.get(k, None) for k in ('l', 'm', 'n')}

Если вы используете Python 3 и вам только нужны ключи в новом dict, которые действительно существуют в исходном, вы можете использовать этот факт для просмотра объектов, реализующих некоторые операции с наборами:

{k: bigdict[k] for k in bigdict.keys() & {'l', 'm', 'n'}}
person Mark Longair    schedule 18.03.2011
comment
Не будет выполнено, если bigdict не содержит k - person Håvard S; 18.03.2011
comment
@ Håvard S: Я думаю, из сообщения OPs, мы можем предположить, что все данные элементы находятся в bigdict. - person phimuemue; 18.03.2011
comment
или в Python 3, или в Python ›= 2.7? - person Fábio Diniz; 18.03.2011
comment
{k: bigdict.get(k,None) for k in ('l', 'm', 'n')} будет иметь дело с ситуацией, когда указанный ключ отсутствует в исходном словаре, установив для ключа в новом слове значение None - person timbo; 22.12.2013
comment
Спасибо, @timbo - я тоже добавил это к ответу, надеюсь, что все в порядке - person Mark Longair; 22.12.2013
comment
@MarkLongair В зависимости от варианта использования может быть лучше {k: bigdict [k] for k in ('l', 'm', 'n') if k in bigdict}, поскольку он хранит только те ключи, которые действительно имеют значения. - person Briford Wylie; 08.03.2014
comment
Поддерживая этот и связанный ответ @ HåvardS, это именно то, что я искал. Мне нравится, когда разработчики правильно цитируют код. - person Michael Scheper; 22.03.2016
comment
Надеюсь, моя правка не слишком самонадеянна. Версия @BrifordWylie может быть лучше, если вы хотите избежать существенно недокументированной функции. - person ; 02.04.2016
comment
@hop Спасибо за добавление - я сделал небольшое изменение, чтобы было ясно, что он работает только на Python 3. - person Mark Longair; 03.04.2016
comment
Как я могу проверить, является ли ['l','m','n'] подстрокой k? - person Arjun; 30.06.2016
comment
bigdict.keys() & {'l', 'm', 'n'} == ›bigdict.viewkeys() & {'l', 'm', 'n'} для Python2.7 - person kxr; 25.08.2016
comment
{ x : bigdict[x] for x in (1, 2, 3) if x in bigdict.keys() }, чтобы избежать значений KeyError и None. - person varun; 29.03.2018
comment
Последнее решение хорошо, потому что вы можете просто заменить '&' на -, чтобы получить все ключи, кроме операции. К сожалению, это приводит к словарю с разными упорядоченными ключами (даже в python 3.7 и 3.8) - person naught101; 19.06.2020
comment
Что делать, если мой dict слишком большой? - person Adamantish; 18.03.2021
comment
dict.get (k), по умолчанию будет возвращать None, если k не найден, нет необходимости явно устанавливать это значение по умолчанию в качестве параметра - person Clint Eastwood; 14.05.2021

Немного короче, по крайней мере:

wanted_keys = ['l', 'm', 'n'] # The keys you want
dict((k, bigdict[k]) for k in wanted_keys if k in bigdict)
person Håvard S    schedule 18.03.2011
comment
+1 для альтернативного поведения исключения ключа, если он не указан в bigdict, вместо установки для него значения None. - person dhj; 12.06.2014
comment
В качестве альтернативы: dict((k,bigdict.get(k,defaultVal) for k in wanted_keys), если у вас должны быть все ключи. - person Thomas Andrews; 01.05.2018
comment
Этот ответ сохраняет т. - person sakurashinken; 29.05.2019

Немного сравнения скорости всех упомянутых методов:

ОБНОВЛЕНО 13.07.2020 (спасибо to @ user3780389): ТОЛЬКО для ключей от bigdict.

 IPython 5.5.0 -- An enhanced Interactive Python.
Python 2.7.18 (default, Aug  8 2019, 00:00:00) 
[GCC 7.3.1 20180303 (Red Hat 7.3.1-5)] on linux2
import numpy.random as nprnd
  ...: keys = nprnd.randint(100000, size=10000)
  ...: bigdict = dict([(_, nprnd.rand()) for _ in range(100000)])
  ...: 
  ...: %timeit {key:bigdict[key] for key in keys}
  ...: %timeit dict((key, bigdict[key]) for key in keys)
  ...: %timeit dict(map(lambda k: (k, bigdict[k]), keys))
  ...: %timeit {key:bigdict[key] for key in set(keys) & set(bigdict.keys())}
  ...: %timeit dict(filter(lambda i:i[0] in keys, bigdict.items()))
  ...: %timeit {key:value for key, value in bigdict.items() if key in keys}
100 loops, best of 3: 2.36 ms per loop
100 loops, best of 3: 2.87 ms per loop
100 loops, best of 3: 3.65 ms per loop
100 loops, best of 3: 7.14 ms per loop
1 loop, best of 3: 577 ms per loop
1 loop, best of 3: 563 ms per loop

Как и ожидалось: понимание словаря - лучший вариант.

person Sklavit    schedule 29.03.2016
comment
Первые три операции выполняют разные функции по сравнению с двумя последними и приведут к ошибке, если key не существует в bigdict. - person naught101; 19.06.2020
comment
отлично. возможно, стоит добавить {key:bigdict[key] for key in bigdict.keys() & keys} из принятого решения, которое выполняет фильтр, но на самом деле работает быстрее (на моей машине), чем первый метод, который вы список, который не фильтруется. Фактически, {key:bigdict[key] for key in set(keys) & set(bigdict.keys())} кажется даже быстрее для этих очень больших наборов ключей ... - person teichert; 08.07.2020

В этом ответе используется понимание словаря, аналогичное выбранному ответу, но не за исключением отсутствующего элемента.

версия Python 2:

{k:v for k, v in bigDict.iteritems() if k in ('l', 'm', 'n')}

версия Python 3:

{k:v for k, v in bigDict.items() if k in ('l', 'm', 'n')}
person Meow    schedule 12.07.2015
comment
... но если большой dict ОГРОМНЫЙ, он все равно будет повторяться полностью (это операция O (n)), в то время как обратный будет просто захватить 3 элемента (каждая операция O (1)). - person wouter bolsterlee; 05.10.2015
comment
Речь идет о словаре всего 16 ключей. - person Meow; 06.10.2015

Может быть:

subdict=dict([(x,bigdict[x]) for x in ['l', 'm', 'n']])

Python 3 поддерживает даже следующее:

subdict={a:bigdict[a] for a in ['l','m','n']}

Обратите внимание, что вы можете проверить наличие в словаре следующим образом:

subdict=dict([(x,bigdict[x]) for x in ['l', 'm', 'n'] if x in bigdict])

соотв. для Python 3

subdict={a:bigdict[a] for a in ['l','m','n'] if a in bigdict}
person phimuemue    schedule 18.03.2011
comment
Ошибка, если a не находится в bigdict - person Håvard S; 18.03.2011
comment
вещи, которые, как говорят, работают только в python 3, также работают в 2.7 - person Clint Eastwood; 14.05.2021

Вы также можете использовать map (это очень полезная функция, чтобы познакомиться с ней в любом случае):

sd = dict(map(lambda k: (k, l.get(k, None)), l))

Пример:

large_dictionary = {'a1':123, 'a2':45, 'a3':344}
list_of_keys = ['a1', 'a3']
small_dictionary = dict(map(lambda key: (key, large_dictionary.get(key, None)), list_of_keys))

PS: Я позаимствовал .get(key, None) из предыдущего ответа :)

person halfdanrump    schedule 23.02.2014

Хорошо, это то, что меня беспокоило несколько раз, так что спасибо, Джайеш, что спросил об этом.

Приведенные выше ответы кажутся таким же хорошим решением, как и любое другое, но если вы используете это во всем своем коде, имеет смысл обернуть функциональность ИМХО. Кроме того, здесь есть два возможных варианта использования: один, когда вы заботитесь о том, все ли ключевые слова находятся в исходном словаре. и тот, где вы этого не сделаете. Было бы неплохо относиться к обоим одинаково.

Итак, за мои два пеннета я предлагаю написать подкласс словаря, например

class my_dict(dict):
    def subdict(self, keywords, fragile=False):
        d = {}
        for k in keywords:
            try:
                d[k] = self[k]
            except KeyError:
                if fragile:
                    raise
        return d

Теперь вы можете вытащить под-словарь с помощью

orig_dict.subdict(keywords)

Примеры использования:

#
## our keywords are letters of the alphabet
keywords = 'abcdefghijklmnopqrstuvwxyz'
#
## our dictionary maps letters to their index
d = my_dict([(k,i) for i,k in enumerate(keywords)])
print('Original dictionary:\n%r\n\n' % (d,))
#
## constructing a sub-dictionary with good keywords
oddkeywords = keywords[::2]
subd = d.subdict(oddkeywords)
print('Dictionary from odd numbered keys:\n%r\n\n' % (subd,))
#
## constructing a sub-dictionary with mixture of good and bad keywords
somebadkeywords = keywords[1::2] + 'A'
try:
    subd2 = d.subdict(somebadkeywords)
    print("We shouldn't see this message")
except KeyError:
    print("subd2 construction fails:")
    print("\toriginal dictionary doesn't contain some keys\n\n")
#
## Trying again with fragile set to false
try:
    subd3 = d.subdict(somebadkeywords, fragile=False)
    print('Dictionary constructed using some bad keys:\n%r\n\n' % (subd3,))
except KeyError:
    print("We shouldn't see this message")

Если вы запустите весь приведенный выше код, вы должны увидеть (что-то вроде) следующий результат (извините за форматирование):

Исходный словарь:
{'a': 0, 'c': 2, 'b': 1, 'e': 4, 'd': 3, 'g': 6, 'f': 5, ' i ': 8,' h ': 7,' k ': 10,' j ': 9,' m ': 12,' l ': 11,' o ': 14,' n ': 13,' q ' : 16, 'p': 15, 's': 18, 'r': 17, 'u': 20, 't': 19, 'w': 22, 'v': 21, 'y': 24 , 'x': 23, 'z': 25}

Словарь из ключей с нечетными номерами:
{'a': 0, 'c': 2, 'e': 4, 'g': 6, 'i': 8, 'k': 10, 'm': 12, 'o': 14, 'q': 16, 's': 18, 'u': 20, 'w': 22, 'y': 24}

Ошибка конструкции subd2:
исходный словарь не содержит некоторых ключей

Словарь, созданный с использованием некоторых неверных ключей:
{'b': 1, 'd': 3, 'f': 5, 'h': 7, 'j': 9, 'l': 11, 'n' : 13, 'p': 15, 'r': 17, 't': 19, 'v': 21, 'x': 23, 'z': 25}

person pandamonium    schedule 11.03.2015
comment
Создание подклассов требует преобразования существующего объекта dict в тип подкласса, что может быть дорогостоящим. Почему бы просто не написать простую функцию subdict(orig_dict, keys, …)? - person musiphil; 17.07.2015

Еще один (я предпочитаю ответ Марка Лонгаира)

di = {'a':1,'b':2,'c':3}
req = ['a','c','w']
dict([i for i in di.iteritems() if i[0] in di and i[0] in req])
person georg    schedule 05.04.2013
comment
это медленно для больших диктовок - person kxr; 28.01.2016

решение

from operator import itemgetter
from typing import List, Dict, Union


def subdict(d: Union[Dict, List], columns: List[str]) -> Union[Dict, List[Dict]]:
    """Return a dict or list of dicts with subset of 
    columns from the d argument.
    """
    getter = itemgetter(*columns)

    if isinstance(d, list):
        result = []
        for subset in map(getter, d):
            record = dict(zip(columns, subset))
            result.append(record)
        return result
    elif isinstance(d, dict):
        return dict(zip(columns, getter(d)))

    raise ValueError('Unsupported type for `d`')

примеры использования

# pure dict

d = dict(a=1, b=2, c=3)
print(subdict(d, ['a', 'c']))

>>> In [5]: {'a': 1, 'c': 3}
# list of dicts

d = [
    dict(a=1, b=2, c=3),
    dict(a=2, b=4, c=6),
    dict(a=4, b=8, c=12),
]

print(subdict(d, ['a', 'c']))

>>> In [5]: [{'a': 1, 'c': 3}, {'a': 2, 'c': 6}, {'a': 4, 'c': 12}]
person DmitrySemenov    schedule 24.05.2020

Для меня лучше всего использовать карту (ответ Halfdanrump), хотя я еще не рассчитал время ...

Но если вы воспользуетесь словарем и у вас есть big_dict:

  1. Убедитесь, что вы пропустили запрос req. Это очень важно и влияет на время работы алгоритма (большой O, тета, вы называете это)
  2. Напишите его достаточно общим, чтобы избежать ошибок, если ключей нет.

so e.g.:

big_dict = {'a':1,'b':2,'c':3,................................................}
req = ['a','c','w']

{k:big_dict.get(k,None) for k in req )
# or 
{k:big_dict[k] for k in req if k in big_dict)

Обратите внимание, что в обратном случае, когда req велико, а my_dict мало, вы должны вместо этого выполнить цикл my_dict.

В общем, мы делаем пересечение и сложность проблемы составляет O (min (len (dict)), min (len (req))). собственная реализация пересечения Python учитывает размер двух наборов. , так что это кажется оптимальным. Кроме того, нахождение в c и часть основной библиотеки, вероятно, быстрее, чем большинство неоптимизированных операторов python. Поэтому я бы рассмотрел следующее решение:

dict = {'a':1,'b':2,'c':3,................................................}
req = ['a','c','w',...................]

{k:dic[k] for k in set(req).intersection(dict.keys())}

Он перемещает критическую операцию внутри кода Python c и будет работать во всех случаях.

person ntg    schedule 11.11.2020

person    schedule
comment
@loutre, как еще вы предлагаете обеспечить извлечение всех данных для заданных ключей? - person theheadofabroom; 10.08.2020
comment
извините, я сделал ошибку. Я думал, вы зациклились на bigdict. Виноват. Я удаляю свой комментарий - person loutre; 12.08.2020